Recherche 2018-04-27T1730
Quelle: Recherche 2018-04-27T1730 (etherpad)
sortiertes Original
Was recherchieren wir?
- Selbstlernpfade erschließen
- Begriffe, die wichtig sind
- technische Hürden
- Tutorials, die dafür hilfreich sind ... oder sich aus den Begriffen ergeben
Der Beruf eines Data Scientists und somit auch wichtige Begriffe:
- https://www.tagesspiegel.de/wirtschaft/weiterbildung-doktor-data/20815038.html
- Daten analysieren
- Daten visualisieren
- Storytelling
- Mathematische Modelle
- Statistische Verfahren
- Proprietäre Tools
- Programmiersprachen (Scala, Python, R, Julia, Java)
Vorgehen um mit Machine Learning anzufangen?
- Verstehen was Data Science ist
- Verstehen was Machine Learning ist und warum man es in DS einsetzen kann
- Eine Programmiersprache lernen (Python)
- Durchmachen eines Tutorials, das ML learning mit Python zeigt
- Kaggle Beispiele anschauen
- An Kaggle Wettbewerb teilnehmen
Allgemeines zum Einstieg
- Was ist Data Science?
- https://www.edureka.co/blog/data-science-tutorial/
- https://www.datascience.com/learn-data-science
- https://intellipaat.com/tutorial/data-science-tutorial/introduction-of-data-science/
- Was ist Machine Learning?
- Einsteiger Videokurs Machine Learning (sehr einfach und gut!): https://www.youtube.com/playlist?list=PLZbbT5o_s2xq7LwI2y8_QtvuXZedL6tQU
- https://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer
- Machine Learning for Humans (einfach erklärt, ohne viel Mathe): https://medium.com/machine-learning-for-humans/why-machine-learning-matters-6164faf1df12
- Kaggle Machine Learning: https://www.kaggle.com/learn/machine-learning
- wenige Grundlagen, sehr zentriert auf Kaggle Bedienung,
- Machine Learning Crash Kurs von Google: https://developers.google.com/machine-learning/crash-course/
- ML Algorithmen
- Überwacht
- unüberwacht
- Semi-überwacht
- Tiefenwissen notewendig? Oder nur Anwendungsfälle, Nutzung, Gefahren?
- Training und Testing
- Logistische Regression
- Klassifikation
- Neuronale Netze
- Beispiele für Machine Learning in der Praxis
OPTIONAL: Mathematische Grundlagen (für diejenigen die es interessiert, braucht man nicht zwingend um ML anzuwenden)
- Kompletterklärung aller Mathematik die man für ML braucht: https://github.com/soulmachine/machine-learning-cheat-sheet/raw/master/machine-learning-cheat-sheet.pdf
- Kompletterklärung aller Mathematik die man für ML braucht: https://github.com/soulmachine/machine-learning-cheat-sheet/
- Statistik (Korrelation, Varianz, Hypothesentest)
- Kaggle Statistik für Anfänger: https://www.kaggle.com/kanncaa1/statistical-learning-tutorial-for-beginners
- Statistik Basics für Data Scientists https://medium.com/@SeattleDataGuy/statistics-review-for-data-scientists-and-management-df8f94760221
- weiteres Tutorial: https://www.youtube.com/watch?v=FmWz4deqo9g
Sprachen
- R
- https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/
- Python
- Anfänger Tutorial Python zum Durchklicken auf Codecademy: https://www.codecademy.com/learn/learn-python
- Gated Progress, gute Lernkontrolle, Basiswissen
- auch zum angucken: https://www.youtube.com/watch?v=Z1Yd7upQsXY
- Gutes Walktrough für gängiste Python-Tools: https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html
- Python Grudkurs mit Ausrichtung nach Data Science: https://www.datacamp.com/courses/intro-to-python-for-data-science/
- (beinhaltet auch Grundkurs für NumPy, ein Python Tool für Datenauswertung)
- https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
- (beinhaltet auch Grundkurs für NumPy, ein Python Tool für Datenauswertung)
- https://machinelearningmastery.com/machine-learning-in-python-step-by-step/
- Python for Data Science: https://www.datacamp.com/courses/intro-to-python-for-data-science
- DataScience Tutorial auf Basis von Kaggle und Python https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners
- Grundkenntnisse sind vorausgesetzt, sehr stark e Konzentration auf Kaggle Plattform, weite Abdeckung, evtl. auszugsweise Intressant?
- Anfänger Tutorial Python zum Durchklicken auf Codecademy: https://www.codecademy.com/learn/learn-python
- SQL
- Übersicht: https://www.w3schools.com/sql/
- Playground um mit SQL zu spielen: https://www.w3schools.com/sql/trysql.asp?filename=trysql_select_all
- SAS
- SPSS
- Julia
Neuronale Netze
- http://www.neuronalesnetz.de/
- Eine Einführung
- ISA
- Deep Learning
- Kagglekurs zu Deep Learning: https://www.kaggle.com/learn/deep-learning
- Deep Learning erklärt: https://www.youtube.com/watch?v=dafuAz_CV7Q&feature=youtu.be
- Videokurs Deep Learning: https://classroom.udacity.com/courses/ud730
- Convolutionals Neural Networks (CNN)
- CNN einfach mit viel Beispielen: An Intuitive Explanation of Convolutional Neural Networks: https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/
- Vorlesungsreihe Uni Standford CNN (geht tief rein): https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv
- Deep Learning
Machine Learning tatsächlich anwenden
- Machine Learning from Start to Finish with Scikit-Learn
- This notebook covers the basic Machine Learning process in Python step-by-step. Go from raw data to at least 78% accuracy on the Titanic Survivors dataset.
- Frameworks
- Caffe (<-- Eher schwergängig, im akademischen Bereich zu finden)
- Einfaches Getting Started Tutorial ohne viel Code: https://github.com/humphd/have-fun-with-machine-learning
- TensorFlow (<-- Aktuell am gefragtesten)
- Offizielles Getting Started with TensorFlow: https://www.tensorflow.org/get_started/eager
- Caffe (<-- Eher schwergängig, im akademischen Bereich zu finden)
- Datenquellen für ML
- Kaggle Datasets: https://www.kaggle.com/datasets
- Wikipedia Liste von Datenquellen für Machine Learning: https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research
Big Data anwenden
- Framework
- Hadoop
- Einstieg in Hadoop (und MapReduce): KOSTENLOSER Kurs: https://de.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617
- Spark
- Tutorial zu Apache Spark: https://www.tutorialspoint.com/apache_spark/index.htm
Software:
- R Studio
- Wofür kann das genutzt werden?
- Für Analyse, Visualisierung
- ==> Open Source Software!
- https://www.edureka.co/blog/data-science-tutorial/
- Jupyter
Jupyter als webbasiertes Visualisierungstool:
- http://jupyter.org
- Mit Jupyter Notebook kann man in verschiedenen Programmiersprachen Code Beispiele in sogenannte Zellen einfügen und diese dann in Echtzeit verarbeiten lassen
- Standard Programmiersprache ist Python. Man kann aber auch in z.B. Markdown oder LateX seinen Code dokumentieren
- -> https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook
- In folgendem Tutorial wird die Installation, das Setup und ein Walkthrough zum Jupyter
Notebook gezeigt, um dieses webbasierte Tool auf dem eigenen Computer nutzen zu können.
- https://www.youtube.com/watch?v=HW29067qVWk
- Jupyter
- https://www.youtube.com/watch?v=Q0jGAZAdZqM
- Anaconda
- Anaconda, eine Open-Source-Distribution zu R und Python. In dem oben verlinkten Tutorial wird die Installation von Conda + Spyder (Python IDE) gezeigt.
- JupyterLab
- Jupyter Notebok hat jetzt eine neue Oberfläche in Form des "JupyterLab". Intuitiveres maneuvrieren durch die Oberfläche + Terminal Integration und bessere Übersicht über die eigenen files.
- https://jupyterlab.readthedocs.io/en/stable/
- Data Science class mit JupyterLab - Nutzen des JupyterHub/Lab
- https://github.com/jupyterhub/jupyterhub-deploy-teaching
- Kurs-Environments
- JupyterHub / Lab
- Aufgaben einstellen
- Leute laden code hoch, assignments etc.
- Berkley macht das
- ansible / NBgrader
- kaggle teacher space
- JupyterHub / Lab
Gesamtkursangebote
- Inspiration zum Lehrplan
- Uni Berkley: Foundations of Data Science: Computational Thinking with Python: https://www.edx.org/course/foundations-data-science-computational-uc-berkeleyx-data8-1x?source=aw&awc=6798_1524843807_b5d7552621dd45b3a877aa6bd2e7a324&utm_source=aw&utm_medium=affiliate_partner&utm_content=text-link&utm_term=101248_adgoal+GmbH+-+Content
- https://lsf.verwaltung.uni-muenchen.de/qisserver/rds?state=wtree&search=1&trex=step&root120162=1%7C254478%7C256991%7C258731%7C268976&P.vx=kurz&noDBAction=y&init=y
- Big Data Management
- Knowledge Discovery
- Algorithm Design
- Analytics
- Statistics
Datenaufbereitung
Datenvisualisierung
- Visualisierung von Ergebnissen: https://www.kaggle.com/learn/data-visualisation
- Tutorials
- seaborn
- plotly
- https://www.kaggle.com/kanncaa1/rare-visualization-tools
- pandas
- pandas: https://www.youtube.com/watch?v=ikOEn8jY2Is (webinar)
- bokeh
- Teil 1: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-1
- Teil 2: https://www.kaggle.com/kanncaa1/interactive-bokeh-tutorial-part-2
Der große Hammer
- Cheat Sheets für Machine Learning, Python und vieles mehr: https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463
- Große Liste mit Lernressourcen zur Machine Learning: https://github.com/ujjwalkarn/Machine-Learning-Tutorials/blob/master/README.md
- Tipps um bei Kaggle Wettbewerben gut abzuschneiden: https://yanirseroussi.com/2014/08/24/how-to-almost-win-kaggle-competitions/
TBD (to be done) diskutieren
- Gängige ML-Statistikkurse anschauen, Intervall Minimal-, Normal-Wissen anschauen: Was könnte man gewinnen, wenn man hier schlauer ist als die Konkurrenz?
- Bedeutung von Videos für unsere Zielgruppe